Adaptive Joint Learning of Compositional and Non-Compositional Phrase Embeddings

Introduction

这篇论文主要是要解决英文短语的词向量表示问题,英语的词向量可以分成两种,一种是compositional,另一种是non-compositional。前者的短语语义就是组成单词的叠加,而后者则会产生完全不同的意思。本文引入了一个score function来度量一个短语的compositional的程度。

完全依赖non-compositional embedding会产生数据稀疏的问题。而使用compositional embedding的问题更明显,因为有些短语本质上就是一个non-compositional embedding。例如bear fruits表示的是to yield results,这很难通过单词本身推断出来。

因此应该要将两种embedding结合起来。现在主要的学习方法有两种,一种就是都当作compositional的,另一种是两种都学习,然后选一个更好的。

Method

Score function


$\alpha(p)=\sigma(\mathbf{W} \dot \phi (p))$

compositional embedding


$\mathbf{c}(p)$

non-compositional embedding


$\mathbf{n}(p)$

然后用下面的公式来得到我们要的最终的embedding


$\mathbf{v}(p)=\alpha(p)\mathbf{c}(p)+(1-\alpha(p))\mathbf{n}(p)$

当训练数据接近无限大的时候,$\alpha(p)$会无限接近0,并且non-compositional embedding会占主导地位,因为数据无限大就不存在数据稀疏问题了,而此时non-compositional embedding能更好地拟合数据。但是现实中,数据都是有限的,因此compositional embedding会减轻有限数据带来的问题。

分享到